留出法

Main Idea Pasted image 20240522144846.png

注意点

  1. 划分要尽量保持数据分布的一致性(避免引入额外的偏差而对结果产生影响)
    • 实现方式:分层采样

存在问题

  1. 不同的划分将导致不同的训练数据/测试集,从而模型评估的结果也会有区别
    • 解决方法:k次随机划分,重复进行实验评估后取平均值
  2. Pasted image 20240522145736.png
    • 永远无法真正等于全部数据训练后的模型,降低结果保真性
  3. 可能有样本一直抽不到T中,导致训练出来的模型对特定样本泛化能力不高(都没试过验证,肯定不高)